Classification de documents combinant la structure et le contenu
نویسندگان
چکیده
RÉSUMÉ. La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise. Les poids sont calculés en adaptant les formules TF-IDF et TF-IEF. Cette représentation est construite à partir d’une représentation synthétique du document appelé arbre résumé. Pour évaluer notre approche, nous avons mené plusieurs expérimentations avec un système de classification basé sur le classifieur SVM. Nous présentons les résultats de nos expérimentations menées sur les corpus REUTERS et INEX. Abstract: Developing the text processing applications has revolutionized the world of documents. The author constructs the document as structured document in which the textual content is organized around tags. However, the traditional document classification typically classifies the documents considering the text and ignoring its structural elements. In this paper, we propose a representation method which makes use of structural elements to create the vector of tag and word weighted by an extension of TF-IDF and TF-IEF formula. This representation is constructed from an aggregated tree of XML document. Several experimentations have been made using SVM as classifier on Reuters and INEX collections.
منابع مشابه
Elan vital chez Bergson
La Philosphie de Bergson vise la vie spirituelle, le spiritualisme, la joie, l’appétit et le changement perpétuel de la réalité. En conséquence las trios notions de la durée, de la mémoire et de l’élan vital constituent la réalité de la vie dans son cheminement et dans son progrès. L’ensemble de ces notions fondamentales décèle la contenu de la vie, et dégage la réalité de ses rigidités de l’au...
متن کاملPrise en compte de l'importance d'un site web dans l'estimation de la probabilité a priori de pertinence d'une page web
RÉSUMÉ. Plusieurs caractéristiques ont été utilisées pour estimer la probabilité a priori d’un document comme : la longueur du document, la structure des liens, le facteur temps. Cependant, ces caractéristiques dépendent seulement du document lui même. Or, dans le contexte du web une page web fait partie en général d’un site web. L’idée que nous explorons dans cette article est l’utilisation de...
متن کاملRecherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence
La recherche d’information (RI) orientée contenu dans les documents semistructurés de type XML met en relation un besoin en information exprimé sous forme d’une requête sur le contenu recherché (liste de mots-clés) et une collection de document XML. Le système de recherche doit répondre en retournant non pas des documents entiers, mais juste des fragments de documents (des éléments XML) pertine...
متن کاملRecherche de conversations dans les réseaux sociaux : modélisation et expérimentations sur Twitter
RÉSUMÉ. La problématique étudiée dans cet article est celle de l’indexation et de la recherche de conversations dans les réseaux sociaux. Une conversation est un ensemble de messages échangés entre utilisateurs, à la suite d’un message initial. La démarche proposée se base sur une modélisation probabiliste, et détaille en particulier l’utilisation d’informations sociales dans le réseau Twitter....
متن کاملViolence du langage dans l’œuvre dramatique de Samuel Beckett : la quête du néant
L’homme beckettien représente grosso modo sur la scène de théâtre des années cinquante le spectacle de souffrance physique et de désintégration totale du sujet qui est le fait d’un trauma et d’un complexe plus profonds, celui du vide de matières scéniques et du mal fondamental qu’on traiterait d’existentiel. En d’autres termes, le mal est dans ce monde quelque chose d’inné chez l’être humain. C...
متن کامل